查看原文
其他

ISACA Journal | 隐私保护分析和安全多方计算

Ulf Mattsson ISACA
2024-09-16

企业越来越关注数据安全的几种情况,包括收集和留存敏感个人信息;在外部如云环境中处理个人信息;以及信息共享。常见的实施解决方案并不足以提供强大的保护,而使数据免受盗窃和泄露的影响。

隐私和风险管理专业人士特别关注用于分析和外部共享的数据的隐私和安全问题。满足隐私法规要求,如美国《加利福尼亚州消费者隐私法案(CCPA)》、《欧盟通用数据保护条例(GDPR)》和其他世界各地的新兴法规要求,均要求具有安全处理敏感数据的技术。隐私保护计算的新方法对业务流程透明,并可以在隐私、安全和合规之间找到适当的平衡提供新机会和帮助(图1)。


对所存储数据进行加密不足以避免数据泄露。对存储数据加密创建了一个“加密边界”,在该边界之外的数据可以明文访问。由于处理通常需要纯文本数据,因此该边界通常存在于可能发生泄漏的地方。对存储数据加密也不支持必须与其他企业共享数据的场景。由于数据是有用的,它们通常必须在应用程序中以明文形式访问,这大大降低了加密的保护能力。典型的数据掩蔽技术的一个缺点是,它们不广泛地支持对交易或行为数据的保护。对存储数据加密和数据掩蔽技术的这些局限性促使人们越来越关注于寻找新的数据保护技术——特别是将高级技术应用在传统数据加密和数据掩蔽技术无法对数据进行保护的情况下。

敏感信息安全共享


不同行业都在应用数据共享安全技术。为了满足法律要求,并为数据共享提供隐私保护,因此需要新兴隐私保护计算技术。

◆医疗领域中数据安全共享的好处 

考虑一个来自医疗领域的例子。最近,完全绘制人类基因组的能力为医疗领域的进步开辟了无限的可能性。DNA分析的数据可以检测基因异常,支持疾病风险分析,帮助发现家族史和阿尔茨海默病中等位基因(指位于一对同源染色体相同位置上控制同一性状不同形态的基因)的存在。这些研究需要非常大的DNA样本来检测准确性;然而,共享个人DNA数据是一个有争议的领域。许多公民不愿与第三方供应商共享此类个人信息,他们不确定是否、如何以及向谁共享这些信息。此外,隐私保护的法律的局限性也限制了供应商共享这些数据。同态加密(HE)技术使公民能够与第三方供应商共享他们的基因组数据,但仍存在一些关键的隐私问题,而不是基于传统的“信或不信”的信任阈值。

◆金融机构数据安全共享的好处 

典型的金融机构可能只识别出最高可达25%的客户活动。跨机构、业务线和地域边界的安全协作有助于加快流程、减少误报、降低运营成本,并通过对所有活动有更完整的了解来抓获更多罪犯。为获得上述好处,需要在私人客户信息的雷区中航行,并在独立金融机构之间共享机密性金融数据。


金融机构可以从三种数据共享形式中获益:

1.来自第三方的输入数据 
2.与第三方共有的数据输出 
3.协作数据,可以是输入数据和输出数据的类似形式 

输入数据共享使各机构能够通过附加信息完善其决策系统,从而实现更高质量的输出和更准确的操作。例如,交易公司可以使用Thomson Reuters MarketPsych Indices等第三方服务,通过社交媒体数据告知其买入/卖出决定,从而更准确地了解市场波动。另一方面,输出数据共享使机构能够利用其内部可能不拥有的能力并为客户提供好处。例如,机器人顾问Wealthsimple允许将客户的投资组合信息通过一个安全的链接导入Mint.com中,使得客户能够看到他们的投资余额和日常开支,并全面了解他们的财务状况。

隐私增强计算


图2展示了一个汇集了不同的隐私保护技术的数据流,可以为使用中的数据和共享的数据提供安全保护。


◆不同的数据保护技术的定位 

《ISO/IEC 20889:2018隐私增强数据去标识术语和技术分类》中定义了去标识技术和正式的隐私测量模型。一些技术包括双向可逆技术和单向不可逆技术。图3说明了不同数据保护技术的定位。


◆不同数据保护技术的特点包括:

  • 算法技术使用加密密钥和加密算法。

  • 差分隐私(Differential privacy)和k-匿名模型增加了可能影响统计准确性的噪声。

  • 同态加密技术提供对加密数据的计算,为数据在计算机之间流动和处理过程中提供隐私保护,适用于对机器学习模型和安全多方计算(SMPC)的训练。

  • 格式保留技术还保留了数据字段的长度。

  • 分析应用程序可能需要对加密数据的数值进行快速搜索,有时还需要模糊搜索。


隐私保护技术可分为三类,每一类都有自己的优点和缺点:字段级数据转换,基于软件的安全计算算法,以及使用加密数据转换和基于硬件的安全机制的体系结构。然而,隐私保护计算是有代价的。这些技术的当前版本通常计算成本很高,依赖于专门的计算机硬件,并且很难直接编程和配置。

◆安全多方计算 

安全多方计算(SMPC),可以对多方提供的数据进行计算,而任何一方都不能看到超越他们提供的数据部分。这使得无需可信第三方即可执行安全计算。图4说明了参与者在计算中进行协作,他们仅知道该计算的结果,而不知道其他人提供的特定数据,也不需要一个中心处理实体。


◆安全多方计算示例:零售行业 

一家大型的支付卡交易数据集成商希望通过与零售商和银行业的合作伙伴一起使用其数据来开辟新的收入来源。数据集成商帮助他们的合作伙伴实现更好的广告转化率,提升客户满意度,并提供更及时的产品。通过使用安全多方计算,数据集成商可以尊重用户的隐私和特定的法律法规要求,使零售商能够在保护企业的互联网协议(IP)的同时获益。每个企业办公室的分析师首先使用该软件和数据相连接,而不会交换任何底层数据,并使用受保护的数据来训练机器学习和统计模型。数据集成商将数据集拆分为秘密共享类和模型训练类,而无需将数据集拼凑在一起。对等方之间通信的信息总是加密的。因此,零售商能够更好地了解顾客的购买习惯。

◆安全多方计算示例:平均工资

Allie的薪水是10万美元。在秘密共享中,10万美元被分成三个随机生成的部分(或秘密共享):2万美元、3万美元和5万美元。Allie为自己保留其中一个秘密共享(5万美元),并向Brian(3万美元)和Caroline(2万美元)分发一个秘密共享。Brian和Caroline也秘密共享他们的薪水,同时遵循同样的过程(图5)。每个参与者对其秘密份额进行局部求和以计算部分结果;在本例中,每个部分结果是计算最终答案所需信息的三分之一。然后将部分结果重新组合,对先前分发的完整秘密共享集求和。Allie、Brian和Caroline的平均工资是20万美元。” 


◆隐私保护计算技术标准 

《ISO/IEC 29101:2013信息技术—安全技术—隐私架构框架》,是“处理安全计算的最古老的标准之一。”它提出了处理个人数据的信息系统的体系结构视图,并展示了隐私增强技术,如安全计算,可以使用假名和查询限制来保护个人识别信息(PII)。

《ISO/IEC 19592-1:2016信息技术—安全技术—秘密共享—第一部分:概述》重点关注“秘密共享的一般模型和相关术语”。它介绍了秘密共享方案具有的特性(例如,同态特性是安全多方计算系统的一个关键方面)。

ISO/IEC 19592-2:2017信息技术—安全技术—秘密共享—第二部分:基本机制》重点关注“介绍具体方案”。所有方案都使用第一部分的术语和属性进行了系统描述。

◆同态加密 

同态加密(HE)在一系列隐私保护计算技术(PPCT)中扮演着重要的角色,PPCT在保护隐私的同时解决并消除了数据共享的典型危害。HE通过将其范围从静态数据和传输中的数据扩展到使用中的数据(即正在处理、查看、更新的数据),提升了加密范围;通过减少或消除隐私问题,使企业更好地利用第三方供应商的服务(通常但不限于云服务);同时提供对加密数据进行计算的能力,使得行业和政府能够提供安全外包计算的能力。

◆同态加密应用 

同态加密能够允许搜索引擎启用私有查询功能—用户提交加密查询,搜索引擎计算加密答案,而不以明文形式显示查询结果。“它还能够允许对加密数据进行搜索—用户将加密文件存储在远程文件服务器上,之后服务器仅检索(在解密时)满足某种Boolean约束的文件,即使服务器无法自行解密这些文件。” 

◆私有集合交 

私有集合交(Private set intersection,PSI)是一种强大的加密技术,允许双方能够计算数据的交集,而不需将原始数据暴露给另一方。PSI标识了不同方持有的数据集之间的公共元素(图6)。PSI取代了简单的方法,例如易受字典攻击的单向哈希函数。PSI的应用程序包括识别与潜在数据合作伙伴之间的交集(即是否有足够多值得合作的共同客户群?)以及为使用MPC训练机器学习模型,将数据集与数据合作伙伴相匹配做准备。


◆差分隐私 

差分隐私是一种字段级数据遮蔽的形式,其设计使得数据可以用于查询聚合统计信息,同时限制个人特定信息的暴露。这种方法支持数据共享场景,并且能够在不受信任的环境中处理数据(图7)。


差分隐私可以通过六种不同的转换算法实现,适用于不同的用例(图8)。它们提供了数学定义来说明算法如何遮蔽数据集中存在或不存在的任何个人的数据。


◆差分隐私的示例:银行业 

一家银行想扩大对其数据湖的访问。利益相关者发现,“当前的数据去标识方法,例如掩蔽技术、令牌化和数据聚合处理,可能会导致数据未受保护。”当前的数据去标识方法由于不满足法规合规性要求和业务需求,导致数个银行项目停止。这些技术的问题在于,它们在对数据进行充分保护的同时,会过度降低数据质量。


这种方法可以创建受隐私保护的数据集,使得在数据科学和商业应用中保留其分析价值。数据科学和业务团队使用数据湖中的数据前,该方法能够自动满足法规合规性政策。通过应用人工智能(AI)和使用隐私模型(如差分隐私和K-匿名模型)来确保数据的分析质量,以达到机器学习的目的。

改进的团队数据访问提升了企业的底线,而不会增加过多的基础架构成本,同时降低消费者信息暴露的风险。

◆K- 匿名模型 

K- 匿名模型能够确保不能识别出少于k条记录的群组。查询将至少返回k条记录。K- 匿名模型是一种正式的隐私测量模型,确保对于每个标识符都存在一个至少包含K条记录的对应等价类(等价类代表属性相同的记录)。对于属性可变性较差的数据集,L-多样性模型是对K-匿名模型的一种增强。通过确保在每个等价类中的每一个可变性属性,至少有L个代表性取值防止确定的推测。K-匿名模型变体受到攻击,导致其向T-接近性模型发展。对于属性分布不均匀、取值范围小或分类少的数据集,T-接近性模型是对L-多样性模型的一种增强。 

◆数据隐私保护搜索 

在将敏感数据外包到云环境之前,在本地环境中对敏感数据进行加密会阻碍对加密数据的搜索,这对于许多业务案例来说至关重要。可搜索加密技术需要在性能、隐私和功能之间寻求平衡。 

◆机密数据或受监管数据的外包 

拥有患者健康记录的医疗中心因法律法规要求不能将其数据外包给易受攻击的云环境。保留敏感犯罪记录的执法机构也应该犹豫是否使用云存储。克服此类机密性问题的一种方法,是在将数据外包到云环境之前对本地数据进行加密。尽管这种方法可以保护数据的机密性,但它会阻碍数据处理。重要的是,对于外包数据,启用搜索是至关重要的。 

◆云数据保护 

另一个例子是使用嵌入机器学习功能用于分析加密数据的数据仓库。Dremel technology是一个可扩展的交互式即席查询系统,用于分析只读嵌套数据。Hadoop的整个数据生命周期中,对敏感数据字段的标记化或加密提供了数据隐私保护。隐私保护策略在本地或云中进行管理(图9)。 


◆云中搜索加密数据的方法 

2000年初研究了可搜索加密技术。此后,人们进行了大量研究,以了解不同类型的可搜索加密技术。虽然所研究的系统在搜索方法、安全级别和性能上有所不同,但它们在体系架构上有一定的相似性。对不同的可搜索加密系统进行了几项调查研究。 

◆利用索引结构

“可搜索加密系统通常使用索引结构跟踪文档中关键字的出现。”初始化此索引的过程将文档集合中的密钥作为输入,然后从文档中提取关键字并将其插入到索引结构中。

图10演示了一个构建索引的过程,数据所有者使用该过程生成一个安全的可搜索结构,该结构支持对加密数据进行搜索。索引结构通常以哈希表、元数据(标记)或倒序索引的形式实现,其中每个唯一关键字都映射到它出现的文档标识符中。


◆扩展到基于关键字的搜索 

对基于关键字可搜索加密的一个扩展,是允许用户对加密数据执行正则表达式搜索。一种初步方法建议创建给定正则表达式的所有可能变体。例如,对于ab[A−z]查询,生成所有26个可能的搜索查询结果,即aba、abb, . . . , abz。这种方法只适用于简单的正则表达式,对于那些具有高度可变性的表达式(例如a*b*)是不可扩展的。 

◆模糊关键字搜索 

模糊关键字搜索可以允许可搜索的加密系统接受较小的排版错误,但它可能不完全涵盖语义角度。当用户的搜索输入与预定义的关键字完全匹配时,模糊关键字搜索返回匹配文件;或者当精确匹配失败时,根据关键字相似语义返回最接近的匹配文件,大大提高了系统的可用性。

◆搜索技术中的不同安全级别 

在半安全的可搜索加密系统中,索引结构可能被部分加密,有关文档或关键字的某些信息可能会从索引结构中泄漏。完全安全的可搜索加密系统不信任系统的任何部分,客户端设备除外。另外,辅助索引也得到了适当的保护,不会向服务器公开任何纯文本数据。索引结构中的关键字可以进行哈希处理。这类具有一定安全性的可搜索加密系统通常在第三方服务器(如公共云)和客户端设备之间部署一个受信任的服务器(也称为私有云或网关)。

◆加密保护的数据库搜索 

受保护的数据库搜索系统“以加密方式隔离从数据库读取、写入和管理数据库的不同角色。这种职责分离限制了不必要的管理员访问,并在系统发生故障时保护数据。


设计这样的系统是一种在安全性、功能性、性能和可用性之间的平衡。由于某些用户希望[结构化查询语言]SQL、[不仅是结构化查询语言]NoSQL或NewSQL数据库的功能,因此,持续的数据库专门化使这一挑战更加困难。这种数据库的演变将继续,受保护的搜索社区应该能够快速提供与新发明的数据库一致的功能。

◆加密数据的模糊搜索 

为了兼顾安全性和可搜索性,提出了支持搜索的加密方案。然而,当查询请求中存在拼写错误和语义多样性时,以前的许多方案都存在严重的漏洞。为了克服这些缺陷,搜索的加密设计总是需要更高的容错性,有时被定义为“模糊搜索”。这种方法引入了一种全新的机制,来将自然语言表达式映射到词向量空间。与以前的方法相比,这种“方法可以很好地提高准确性和效率,并且不会破坏基本的安全性。”图11说明了可搜索加密方法可以分为三个步骤:

1.表现形式-关键字从外来文件或接收到的查询中提取出来,并转化为词向量,这些词向量的组合构成了文件或查询的最终表现形式。

2.加密和索引-文件和查询都是加密的,以增强安全性。建议采用异构方式加密。加密算法和密钥通常由数据所有者提供。通过一些数据结构,加密文件被归档并存储以便进行索引。

3.搜索-用户发送查询,数据持有者对查询和存储的加密数据执行一些搜索算法。搜索包括计算关联性得分并按得分进行排序。数据用户通常只要求查询前k个最相关的文件,而不是所有相关的文件。


◆Bloom数据搜索过滤器 

1970年,如果应用常见的零错误哈希技术,bloom过滤器技术通常会被引入到那些源数据需要不切实际的大量内存的应用程序中。它是一种“节省空间的概率数据结构”,用于测试元素是否属于数据集。流行的数据库使用Bloom过滤器对某些查询的分区执行Bloom搜索,例如,在将数据维度表与大型事实表连接时。图12说明了假阳性匹配是可能的,但是假阴性是不可能的。元素可以添加到集合中,但不能删除。添加的项目越多,误报的概率就越大。


◆混合云考虑因素 

企业可能熟悉内部部署加密和密钥管理系统,因此他们通常更偏好一致性,以便跨多个云使用相同的工具和技能。企业通常采用“同类最佳”的云方法。有些客户根本不信任他们的供应商。一个常见的问题是被供应商绑架,即无法迁移到另一家云服务供应商。

图13展示了跨云和内部部署的隐私集中化管理。


总结


企业越来越关注数据隐私。然而,新技术使得安全共享数据和保护个人隐私成为可能。这些技术可以允许在数据湖和云环境中搜索加密数据,而不损害数据隐私,同时仍然确保数据的分析质量。通常实施的解决方案不能提供强大保护,防止数据被盗和隐私泄露。对静态数据进行加密不足以避免数据泄露。不同行业已经开始应用新兴的隐私保护技术。需要新的隐私保护计算方法来帮助提供新的机会,在隐私性、安全性和合规性之间找到适当的平衡。同态加密仍然是多样化且具有分散性,缺乏标准化阻碍了创建规模,简化和标准化API和SDK之间的一致性。同态加密技术必须通过将其合并到熟悉的开发者语言环境、框架和平台中来进行抽象和简化。

编者注:本文出自ISACA Journal 2021年第2期。尾注略。根据译者对原文的理解略作增删后翻译。文章内容仅代表作者本人观点。


作者:Ulf Mattsson,MSE,是Protegrity的首席安全策略师,并为支付卡行业数据安全标准(PCI DSS)、美国国家标准协会(ANSI)ANSI X9和云安全联盟(CSA)的开发做出了贡献。

翻译:唐雅琪(Andrea Tang), CIPP/E, CIPM,ISO 27001 LA,ISACA微信公众号特邀通讯员小组组长,任职于安永企业咨询有限公司。

校稿:蔡俊磊(Joe Cai),CDPSE、CISA、CISM、CGEIT、CRISC、Cybersecurity Audit、CISSP、CIPP/E、FIP、CIPM、CIPT、CIPP/A、EXIN DPO、ISO 27001 LA,ISACA中国技术委员会主任,ISACA微信公众号特邀通讯员,ISACA上海社区Leader,数据保护和隐私合规从业者。

继续滑动看下一个
ISACA
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存